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上 节 课 我 们 主要 介绍 了 Deep Learning 的 概念 。Deep Learing 其 实 是 Neural Networ 的 
延伸 ， 神 经 元 更 多 ， 网 络 结构 更 加 复杂 。 深 度 学 习 网 络 在 训练 的 过 程 中 最 核心 的 问题 
就 是 pre-training 和 regularization。pre-training 中 ， 我 们 使 用 denoising autoencoder 来 
对 初始 化 权重 进行 选择 。denoising autoencoder 与 统计 学 中 经 常用 来 进行 数据 处 理 的 
PCA 算 法 具有 很 大 的 关联 性 。 这 节 课 我 们 将 介绍 Radial Basis Function Network， 把 

之 前 介绍 的 adial Basis Function 和 Neural Network 联 系 起 来 。 


RBF Network Hypothesis 


之 前 我 们 介绍 过 ， 在 SVM 中 引入 Gaussian Kernel 就 能 在 无 限 多 维 的 特征 转换 中 得 到 一 
条 “粗壮 "的 分 界线 (或 者 高 维 分 界 平面 、 分 界 超 平面 ) 。 从 结果 来 看 ，Gaussian SVM 
其 实 就 是 将 一 些 Gaussian 函 数 进 行 线性 组 合 ， 而 Gaussian 函 数 的 中 心 就 位 于 Support 

Vectors 上 ， 最 终 得 到 预测 模型 gun (z )。 


gsw(x) = Sign (5 anynexp (一 ?|x 一 xn|) 下 | 


SV 


Gaussian SVM: find an to combine Gaussians centered at x,; 
achieve large margin in infinite-dimensional space, remember? :-) 


Gaussian kernel 的 另 一 种 叫 法 是 Radial Basis Function(RBF) kernel， 即 径 向 基 辑 
数 。 这 个 名 字 从 何 而 来 ? 首先 ，radial 表 示 Gaussian 消 数 计算 结果 只 跟 新 的 点 x 与 中 心 
点 Zn 的 距离 有 关 ， 与 其 它 无 关 。basis function 就 是 指 Gaussian 了 水 数 ， 最 终 的 算 
gsvm (2) 就 是 由 这 些 basis function 线 性 组 合 而 成 。 


从 另外 一 个 角度 来 看 Gaussian SVM。 首 先 ， 构 造 一 个 函数 gn (x): 


go(z) = ne Mel 


上 式 中 ， 指 数 项 表示 新 的 点 x 与 Zn 之 间 的 距离 大 小 。 距 离 越 近 ， 即 权重 越 大 ， 相 当 于 
对 wy 投 的 票数 更 多 ; 而 距离 越 远 ， 权 重 越 小 ， 相 当 于 对 wy 投 的 票数 更 少 。 其 物理 意义 
是 新 的 点 与 2 的 距离 远近 决定 了 gn, (x ) 与 yn 的 接近 程度 。 如 果 距 离 越 折 ， 则 wy, 对 

gn (72) 的 权重 影响 越 大 ;如 果 距离 越 远 ， 则 y, 对 gn (2) 的 权重 影响 越 小 。 那 么 整体 来 
说 ，gswm (ZY) 就 由 所 有 的 SV 组 成 的 gy, (x ) 线 性 组 合 而 成 ， 不 同 gn, (x ) 对 应 的 系数 是 Qa 
， 最 后 由 sign 浮 数 做 最 后 的 选择 。 这 个 过 程 很 类 型 我 们 之 前 介绍 的 aggregation 中 将 所 
有 较 好 的 hypothesis 线 性 组 合 ， 不 同 的 gn (2) 有 不 同 的 权重 Qn。 我 们 把 gn, (2) 叫 做 
radial hypotheses，Gaussian SVM 就 是 将 所 有 SV 对 应 的 radial hypotheses 进 行 线 性 
组 合 (linear aggregation) 。 


e。 Gaussian kernel: also called Radial Basis Function (RBF) kernel 
se radial: only depends on distance between x and ‘center’ x, 
es basis function: to be ' combined 


。 let gn(X) = ynexp (一 ?lx — xnll2): 
gswu(X) = sign (>sv angn(x) + b) 
—linear aggregation of selected radial hypotheses 





那么 ，Radial Basis Function(RBF) Network 其 实 就 是 上 面 Gaussian SVM 概念 的 延 


伸 ， 目 的 就 是 找到 所 有 radial hypotheses 的 linear aggregation， 得 到 更 好 的 网 络 模 
型 。 


之 所 以 叫 作 RBF Network 是 因为 它 的 模型 结构 类 似 于 我 们 之 前 介绍 的 Neural 


Network。 


Neural Network RBF Network 








总 一 centers votes 一 


| 


Neural Network 与 RBF Network 在 输出 层 基 本 是 类 似 的 ， 都 是 上 一 层 hypotheses 的 线 
性 组 合 (linear aggregation) 。 但 是 对 于 隐藏 层 的 各 个 神经 元 来 说 ，Neural Network 
是 使 用 内 积 (inner-product) 加 上 tanh() 函 数 的 方法 ， 而 RBF Network 是 使 用 距离 


(distance) 加 上 Gaussian 函 数 的 方法 。 总 的 来 说 ，RBF Network 是 Neural Network 
的 一 个 分 支 。 


s hidden layer different: 
(inner-product + tanh) versus (distance + Gaussian) 


s output layer same: just linear aggregation 


至 此 ，RBF Network Hypothesis 以 及 网 络 结构 可 以 写成 如 下 形式 : 


RBF Network 


h(x) 


M 
= Output 区 BmRBF (xX, ym) 十 


m=1 
key variables: 


centers Apr; (Signed) votes Bm 





上 了 式 中 ，Hm 表 示 每 个 中 心 点 的 位 置 ， 隐 藏 层 每 个 神经 元 对 应 一 个 中 心 点 ; 表示 每 
个 RBF 的 权重 ， 即 投票 所 占 比 重 。 


对 应 到 Gaussian SVM 上 ， 上 式 中 的 RBF 就 是 Gaussian 函 数 。 由 于 是 分 类 问题 ， 上 式 
中 的 Output 就 是 sign 函 数 。 其 中 ，RBF 的 个 数 M 就 等 于 支持 向 量 的 个 数 SV，AMm 就 代 
表 每 个 SV 的 坐标 Zw,， 而 Bn 就 是 在 Dual SVM 中 推导 得 到 的 ay 值 。 那 我 们 学 习 的 
目标 就 是 根据 已 知 的 RBF 和 Output， 来 决定 最 好 的 中 心 点 位 置 Wm 和 权重 系数 Dr 。 







gsvw for Gaussian-SVM 
s RBF: Gaussian; Output: sign (binary classification) 
se M=#SV; jm: SVM SVs xm; Bm: amym from SVM Dual 








learning: given RBF and Output, 
decide jm and Bm 


在 之 前 介绍 SVM 的 时 候 ， 我 们 就 讲 过 Mercer 定 理 : 一 个 和 矩阵 是 Kernel 的 充分 必要 条 件 
是 它 是 对 称 的 且 是 半 正 定 的 ， 条 件 比较 苛刻 。 除 了 Gaussian kernel 还 有 Polynomial 


kernel 等 等 。Kernel 实 际 上 描述 了 两 个 向 量 之 间 的 相似 性 ， 通 过 转换 到 z 空 间 计算 内 积 
的 方式 ， 来 表征 二 者 之 间 的 相似 性 。 而 RBF 实际 上 是 直接 使 用 x 空 间 的 距离 来 描述 了 一 
种 相似 性 ， 距 离 越 近 ， 相 似 性 越 高 。 因 此 ，kernel 和 RBF 可 以 看 成 是 两 种 衡量 相似 性 

(similarity) 的 方式 。 本 文 介 绍 的 Gaussian RBF 即 为 二 者 的 交集 。 


kernel: similarity via Z-space inner product 
—governed by Mercers condition, remember? :-) 
Poly(x, Xx’) = (1 十 X7X')2 


Gaussian(X,x') = exp( 一 ?||x 一 X'||2) 


Tiuncated(X;,X') = [||x — x’|| < 1] (1 — |lx — x’||)* 
RBF: similarity via 七 -Space distance 
—often monotonically non-increasing to distance 


除了 kernel 和 RBF 之 外 ， 还 有 其 它 衡量 相似 性 的 函数 。 例 如 神经 网 络 中 的 神经 元 就 是 
衡量 输入 和 权重 之 间 的 相似 性 。 


经 过 以 上 人 分析， 我们 知道 了 RBF Network 中 distance similarity 是 一 个 很 好 的 定义 特征 
转换 的 方法 。 除 此 之 外 ， 我 们 还 可 以 使 用 其 它 相似 性 函数 来 表征 特征 转换 ， 从 而 得 到 
更 好 的 机 器 学 习 模 型 。 


RBF Network Learning 


我 们 已 经 介绍 了 RBF Network 的 Hypothesis 可 表示 为 : 


M 
h(x) = Output (> BmRBF(X, jn) ) 


m=1 


其 中 jw 表示 中 心 点 的 位 置 。jwwm 的 个 数 M 是 人 为 决定 的 ， 如 果 将 每 个 样本 点 zm 都 作 
为 一 个 中 心 点 ， 即 M=N， 则 我 们 把 这 种 结构 称 为 full RBF Network。 也 就 是 说， 对 于 
full RBF Network， 每 个 样本 点 都 对 最 终 的 预测 都 有 影响 (uniform influence) ， 影 响 
的 程度 由 距离 六 数 和 权重 帮 决定。 如 果 每 个 样本 点 的 影响 力 都 是 相同 的 ， 设 为 1， 
Bm 二 1 ym ， 那 么 相当 于 只 根据 距离 的 远近 进行 投票 。 最 终 将 x 与 所 有 样本 点 的 
RBF 距 离线 性 组 合 ， 经 过 sign 消 数 后 ， 得 到 最 终 的 预测 分 类 结果 。 这 实际 上 就 是 
aggregation 的 过 程 ， 考 虑 并 计 入 所 有 样本 点 的 影响 力 ， 最 后 将 x 与 所 有 样本 点 的 


distance similarity 进 行 线 性 组 合 。 


sa full RBF Network: M = N and each Am = Xm 
sa physical meaning: each xm influences similar x by Bm 
s e.g. uniform influence with Bm = 1.: ym for binary classification 


N 
guniform(X) 一 Sign (Zen (-*lx rl) 
m=1 
一 aggregate each example's opinion subject to similarity 


full RBF Network 的 矩 可 以 表示 为 : 


N 
guniform(X) = Sign (wen (=-?lx ral) 


m=1 


我 们 来 看 上 式 中 的 Gaussian 函 数 项 ， 当 x 与 样本 点 Zm 越 接近 的 时 候 ， 其 高 斯 函数 值 越 
大 。 由 于 Gaussian 函 数 曲 线性 质 ， 越 靠近 中 心 点 ， 值 越 大 ; 偏离 中 心 点 ， 其 值 会 下 降 
得 很 快 。 也 就 是 说 ， 在 所 有 N 个 中 心 样本 点 中 ， 往 往 只 有 距离 x 最 近 的 那个 样本 点 起 到 
关键 作用 ， 而 其 它 距 离 x 较 远 的 样本 点 其 值 很 小 ， 基 本 可 以 忽略 。 因 此 ， 为 了 简化 运 

算 ， 我 们 可 以 找到 距离 x 最 近 的 中 心 样 本 点 ， 只 用 这 一 个 点 来 代替 所 有 N 个 点 ， 最 后 得 
到 的 和 矩 gnzor (Z) 也 只 由 该 最 近 的 中 心 点 决定 。 这 种 模型 叫做 nearest neighbor model， 
只 考虑 距离 x 最 近 的 那 一 个 “邻居 "。 


当然 可 以 对 nearest neighbor model 进 行 扩展 ， 如 果 不 是 只 选择 一 个 “邻居 "， 而 是 选择 
距离 x 最 近 的 k 个 “邻居 "， 进 行 uniformly aggregation， 得 到 最 终 的 矩 gntor (Z)。 这 种 方 
法 通常 叫做 k 近 邻 算 法 (k nearest neighbor) 。 


。exp (一 ?|x — Xmll*): maximum when x closest to xm 
一 maximum one often dominates the 3"_, term 


。 take ym of maximum exp(...) instead of voting of all ym, 
一 Selection instead of aggregation 


。 physical meaning: 
Gnbor(X) = ym Such that x closest to xm 
一 Called nearest neighbor model 
。 can uniformly aggregate k neighbors also: k nearest neighbor 


k nearest neighbor 通 常 比 nearest neighbor model 效 果 更 好 ， 计 算 量 上 也 比 full RBF 
Network 要 简单 一 些 。 值 得 一 提 的 是 ，k nearest neighbor 与 full RBF Network 都 是 比 
较 “ 偷 懒 "的 方法 。 因 为 它们 在 训练 模型 的 时 候 比 较 简单 ， 没 有 太 多 的 运算 ， 但 是 在 测 
试 的 时 候 却 要 花费 更 多 的 力气 ， 找 出 最 相近 的 中 心 点 ， 计 算 相对 复杂 一 些 。 


接 下 来 ， 我 们 来 看 一 下 Full RBF Network 有 什么 样 的 优点 和 好 处 。 考 虑 一 个 squared 
error regression 问 题 ， 且 每 个 RBF 的 权重 为 和 而 不 是 前 面 简 化 的 y，”。 目 的 是 计算 最 
优化 模型 对 应 的 Bi 值 。 该 hypothesis 可 表示 为 : 


full RBF Network for squared error regression: 


N 
h(x) = Detpaf (Zonere 加 


m=1 
很 明显 ， 这 是 一 个 简单 的 线性 回归 问题 ， 每 个 RBF 都 可 以 看 成 是 特征 转换 。 特 征 转换 
后 的 向 量 交 可 表示 为 : 
2 一 |[RBP(znzi) RBF (xn, 72), :+, RBF (rn, ZN)] 
那么 ， 根 据 之 前 线性 回归 介绍 过 的 最 优化 解 公式 ， 就 能 快速 地 得 到 6 的 最 优 解 为 : 
B=(2°2) ZY 
上 述 解 的 条 件 是 矩阵 2Z7 GZ 是 可 逆 的 。 


和 矩阵 Z 的 大 小 是 NxN， 是 一 个 方 阵 。 而 且 ， 由 于 Z 中 每 个 向 量 次 表示 该 点 与 其 它 所 有 点 
的 RBF distance， 所 以 从 形式 上 来 说 ，Z 也 是 对 称 和 矩阵 。 如 果 所 有 的 样本 点 zn 都 不 一 
样 ， 则 Z 一 定 是 可 逆 的 。 


se just linear regression on RBF-transformed data 
Zn = [RBF(xn, x1), RBF(xn, X2), ..., RBF(xn, XN)] 


。 optimal 8? 8 = (Z7Z)-1Z7y,ifZ7Z invertible, remember? :-) 


。 Size of Z? N (examples) by N (centers) 
一 Symmetric square matrix 


。 theoretical fact: if xn all different, Z with Gaussian RBF invertible | 


根据 Z 和 矩阵 的 这 些 性 质 ， 我 们 可 以 对 C 的 解 进行 化 简 ， 得 到 : 


B=" 
将 C 的 解 代入 和 矩 的 计算 中 ， 以 zi 为 例 ， 得 到 : 
grRBr (1)=P A =y ZI A=y [10...0 = 六 


结果 非常 有 趣 ， 模 型 的 输出 与 原样 本 yy 完全 相同 。 同 样 ， 对 任意 的 x,, ， 都 能 得 到 
gRBF (Zn) 二 Yn。 因 此，Ein (gRBF) 二 0。 看 起 来 ， 这 个 模型 非常 完美 了 ， 没 有 
error。 但 是 ， 我 们 之 前 就 说 过 ， 机 器 学 习 中 ，E;,, 二 0 并 非 好 事 ， 很 可 能 造成 模型 复 
杂 度 增加 及 过 拟 合 。 


full Gaussian RBF Network for regression: 3 = Z-'y 
grer(X1) = BTz1 = yTZ-i(first column of Z)=y [1 0 ... 0] = 
—greF(Xn) = yn, i.e. Ein(grer) = 0, yeah!! :-) 

当然 ， 这 种 方法 在 某 些 领域 还 是 很 有 用 的 。 比 如 在 函数 拟 合 (function 


approximation) 中 ,目标 就 是 让 Bi, 二 0， 使 得 原 所 有 样本 都 尽 可 能 地 落 在 拟 合 的 函 
数 曲线 上 。 


为 了 避免 发 生 过 拟 合 ， 我 们 可 以 引入 正则 项 入 ， 得 到 6 的 最 优 解 为 : 
B= (2:2+AT) ZYy 


。 called exact interpolation for function approximation 

。 but overfitting for learning? :-( 

。 how about regularization? e.g. ridge regression for 3 instead 
—optimal 3 = (Z'Z + A)-!Z'y 

e。 Seen Z? Z = [Gaussian(xn, Xm)] = Gaussian kernel matrix K 


我 们 再 来 看 一 下 Z 和 矩阵 ，Z 和 矩阵 是 由 一 系列 Gaussian 函 数组 成 ， 每 个 Gaussian 函 数 计 

算 的 是 两 个 样本 之 间 的 distance similarity。 这 里 的 Z 与 之 前 我 们 介绍 的 Gaussian SVM 

中 的 kernel K 是 一 致 的 。 当 时 我 们 得 到 kernel ridgeregression 中 线性 系数 6 的 解 为 : 
8B=( 玉 二 AD 9 


比较 一 下 kernel ridgeregression 与 regularized full RBF Network 的 6 解 ， 形 式 上 相似 但 
不 完全 相同 。 这 是 因为 regularization 不 一 样 ， 在 kernel ridgeregression 中 ， 是 对 无 限 


多 维 的 特征 转换 做 regularization ， 而 在 regularized full RBF Network 中 ， 是 对 有 限 维 
(N 维 度 ) 的 特征 转换 做 regularization。 因 此 ， 两 者 的 公式 解 有 细微 差别 。 


effect of regularization in different spaces: 


kernel ridge regression: 3 = (K+ AD-1y; 
regularized full RBFNet: 8 = (Z7Z 十 AD-1Z7Yy 


除 此 之 外 ， 还 有 另外 一 种 regularization 的 方法 ， 就 是 不 把 所 有 NN 个 样本 点 都 拿 来 作 中 
心 点， 而 是 只 选择 其 中 的 M 个 样本 点 作为 中 心 点 。 类 似 于 SVM 中 的 SV 一 样 ， 只 选择 具 
有 代表 性 的 M 个 中 心 点 。 这 样 减 少 中 心 点 数量 的 同时 也 就 减少 了 权重 的 数量 ， 能 够 起 
到 regularization 的 效果 ， 避 免 发 生 过 拟 合 。 


recall: 


gsvw(X) = Sign (Tener (=-?lx 一 xm|? 于 ) 


SV 


一 0nly ‘< N’ SVs needed in ‘network 





。 Next: M < Ninstead of M = N 


。 effect: regularization 
by constraining number of centers and voting weights 


。 physical meaning of centers jm: prototypes 
下 一 部 分 ， 我 们 将 讨论 如 何 选取 M 个 中 心 点 作为 好 的 代表 。 


k-Means Algorithm 


之 所 以 要 选择 代表 ， 是 因为 如 果 某 些 样本 点 很 接近 ， 那 么 就 可 以 用 一 个 中 心 点 来 代表 
它们 。 这 就 是 聚 类 (cluster) 的 思想 ， 从 所 有 N 个 样本 点 中 选择 少数 几 个 代表 作为 中 


AAAO 


if X1 之 X2>， 
一 no need both RBF(x, x1) & RBF(x, x2) in RBFNet， 
—> Cluster x1 and xz by one prototype 4 ~ Xx1 ~ X2 


聚 类 (clustering) 问题 是 一 种 典型 的 非 监督 式 学 习 (unsupervised learning) 。 它 的 
优化 问题 有 两 个 变量 需要 确定 : 一 个 是 分 类 的 分 群 值 9 ， 每 一 类 可 表示 为 
5S1,S2，,'… ,SM; 另外 一 个 是 每 一 类 对 应 的 中 心 点 LU1, 2 , WLM。 那么 对 于 该 聚 
类 问题 的 优化 ， 其 error function 可 使 用 squared error measure 来 衡量 。 


。 Clustering with prototype: 
es partition {xn} to disjoint sets S$1, 52,::: ,SM 
。 choose jn for each Sm 


一 hope: x1, X2 both € Sm Wm X1 TT Xo 
e Cluster error with squared error measure: 


N M 


En(S1,:…- a 起 ,LM) 一 [xn € Sm]llxn — jmll* 


n=1 m=1 


那么 ,我 们 的 目标 就 是 通过 选择 最 合适 的 5S1, 5S2,:…, Sm 和 Wi1, J2,*… ,MLM， 使 得 
i 最 小 化 。 对 应 的 公式 可 表示 为 : 


with S$1,::. ,SM being a partition of {xn)}, 


N M 
min > bp [Xn € Sm]llxn 一 Am 


{S31 NMR LM} 3 


。 hard to optimize: joint combinatorial-numerical optimization 
。 two sets of variables: will optimize alternatingly 


A 


从 这 个 最 小 化 公式 ,我 们 能 够 发 现 这 是 一 个 组 合 最 佳 化 的 问题 ， 既 要 优化 分 群 值 5», 

， 又 要 求解 每 一 类 的 中 心 点 wm 。 所 以 ， 这 个 最 小 化 问题 是 比较 复杂 、 难 优化 的 。 通 党 
的 办 法 是 对 S 和 /分 别 进行 最 优化 求解 。 

首先 ， 如 果 j1, J42,*…… , LM 是 固定 的 ， 目 标 就 是 只 要 对 所 有 的 zn 进行 分 群 归 类 。 这 
个 求解 过 程 很 简单 ， 因 为 每 个 样本 点 只 能 属于 一 个 群 S， 不 能 同时 属于 两 个 或 多 个 
群 。 所 以 ， 只 要 根据 距离 公式 ， 计 算 选 择 离 z" 最 近 的 中 心 点 K 即 可 。 


if 0 ,Hm fixed, for each xn 
。 [xn <e Sml: choose one and only one subset 
。 ||xn 一 Amll2: distance to each prototype 








optimal chosen subset Sn = the one with minimum ||xn — pmll* 


for given HA; …… ,An each xn 
‘optimally partitioned using its closest jm 





然后 ， 如 果 S1, 9?,……… , SM 是 固定 的 ， 目 标 就 是 只 要 找 出 每 个 类 的 中 心 点 久 。 显 然 ， 
根据 上 式 中 的 error function， 所 有 的 x 分群 是 已 知 的 ， 那 么 该 最 小 化 问题 就 是 一 个 典 
型 的 数值 最 优化 问题 。 对 于 每 个 类 群 9， ， 利 用 梯度 下 降 算 法 ， 即 可 得 到 /的 解 。 


if S1,:+ :+ , Sw fixed, just unconstrained optimization for each Am 
N 
VmEin = 2 [xn € Sm](xn 一 Am) = Xn | — |Smlpem 
n=1 XnESm 


optimal prototype jm = average of xn within Sm 





for given S1,…… , Sm, each yn 
‘optimally computed’ as consensus within Sm | 


如 上 图 所 示 ， 中 心 点 jm 就 等 于 所 有 属于 类 群 5Sm, 的 平均 位 置 处 。 


经 过 以 上 的 推导 ， 我 们 得 到 了 一 个 非常 有 名 的 一 种 unsupervised learning 算 法 ， 叫 做 
k-Means Algorithm。 这 里 的 k 就 是 代表 上 面 的 M， 表 示 类 群 的 个 数 。 


k-Means Algorithm 的 流程 是 这 样 的 : 首先 ， 随 机 选择 k 个 中 心 点 pa J2,…, Kk; 然 
后 ， 再 由 确定 的 中 心 点 得 到 不 同 的 类 群 91, 9?,: … , S%; 接着 ， 再 由 确定 的 类 群 计 算 
出 新 的 不 同 的 k 个 中 心 点 ; 继续 循环 迭代 计算 ， 交 互 地 对 4 和 S 值 进行 最 优化 计算 ,不 
断 更 新 人 和 S 值 ， 直 到 程序 收敛 ， 实 现 尼 最 小 化 。 具 体 算 法 流程 图 如 下 所 示 : 


k-Means Algorithm 


@ initialize pi, 12,..., Wx: Say, as k randomly chosen xn 
@ alternating optimization of E'.: repeatedly 
@ optimize Si, S»,...., Sk: 


each xn ‘optimally partitioned using its closest py 
@ optimize pe1, p22,..., px: 
each pj, ‘optimally computed as consensus within Sm 
until converge 


有 一 个 问题 是 ，k-Means Algorithm 的 循环 迭代 一 定 会 停止 吗 ” 或 者 说 一 定 能 得 到 最 优 
解 吗 ? 答案 是 肯定 的 。 因 为 每 次 迭代 更 新 ，j 和 S 值 都 会 比 上 一 次 的 值 更 接近 最 优 解 ， 
也 就 是 说 in 是 不 断 减 小 的 。 而 Bin 的 下 界 是 9， 所 以 ，Bin 最 终 会 等 于 0，J 和 S 最 终 
能 得 到 最 优 解 。 


k-Means Algorithm 已 经 介绍 完毕 。 接 下 来 ， 我 们 把 k-Means Algorithm 应 用 到 RBF 
Network 中 去 。 首 先 ， 使 用 k-Means， 得 到 原始 样本 的 k 个 中 心 点 。 原 始 样本 到 k 个 中 心 
点 组 成 了 RBF 特 征 转 换 呈 (x)。 然 后 ， 根 据 上 面 介绍 过 的 线性 模型 ， 由 最 优化 公式 解 计 
算得 到 权重 B 值 。 最 后 ， 将 所 有 的 更 (z) 用 0 线性 组 合 ， 即 得 到 和 矩 9RpPNwzr(Z) 的 表达 
式 。 具 体 的 算法 流程 如 下 所 示 : 


RBF Network Using k-Means 


@@ run k-Means with k = M to get {ym} 
@ construct transform 中 (x) from RBF (say, Gaussian) at jm 


中 (X) = [RBF(x, y.1), RBF(x, 12),..., RBF(x, ym)] 
@ run linear model on {(®P (xn), yn)} to get 8 
@ return GreFneT(X) 一 LinearHypothesis (2， 中 (X)) 
值得 一 提 的 是 ， 这 里 我 们 使 用 了 unsupervised learning (k-Means) 与 我 们 上 节 课 介 
绍 的 autoencoder 类 似 ， 同 样 都 是 特征 转换 (feature transform) 的 方法 。 


在 最 优化 求解 过 程 中 ， 参 数 有 k-Means 类 群 个 数 M、Gaussian 卫 数 参 数 和 等 。 我 们 可 
以 采用 validation 的 方法 来 选取 最 佳 的 参数 值 。 


。 Using unsupervised learning (k-Means) to assist feature 
transform—like autoencoder 


。 parameters: M (prototypes), RBF (such as 7 of Gaussian) 





RBF Network: a simple (old-fashioned) model | 


k-means and RBF Network in Action 
下 面 这 部 分 ， 我 们 将 举 几 个 例子 ， 看 一 下 k-Means Algorithm 是 如 何 处 理 分 类 问题 的 。 


第 一 个 例子 ,平面 上 有 4 个 类 群 ，k=4。 首 先 ， 我 们 随机 选择 4 个 中 心 点 ， 如 下 图 中 四 
种 颜色 的 方块 所 示 : 


第 一 次 迭代 ， 由 初始 中 心 点 ， 得 到 4 个 类 群 点 的 分 布 : 





4 个 类 群 点 确定 后 ， 再 更 新 4 个 中 心 点 的 位 置 : 


k=4 


iteration 1 


第 二 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 


第 三 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 


iteration 3 
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第 四 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 


4 个 类 群 点 确定 后 ， 再 更 新 4 个 中 心 点 的 位 置 : 


K=4 


iteration 4 
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第 五 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 





4 个 类 群 点 确定 后 ， 再 更 新 4 个 中 心 点 的 位 置 : 


和 


= 4 


iteration 5 


第 六 次 迭代 ， 由 上 面 得 到 的 4 个 中 心 点 ， 再 计算 4 个 类 群 点 的 分 布 : 





从 上 图 我 们 可 以 看 到 ， 经 过 六 次 迭代 计算 后 ， 聚 类 的 效果 已 经 相当 不 错 了 。 从 另外 一 
个 角度 来 说 ，k 值 的 选择 很 重要 ， 下 面 我 们 来 看 看 不 同 的 k 值 对 应 什么 样 的 分 类 效果 。 





如 上 图 所 示 ， 初 始 时 ， 我 们 分 别 设 定 k 为 2，4，7， 随 机 选择 中 心 点 位 置 。 在 经 过 多 次 
又 


迭代 后 ， 得 到 的 聚 类 结果 如 下 : 
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通过 上 面 这 个 例子 可 以 得 出 ， 不 同 的 k 值 会 得 到 不 同 的 聚 类 效果 。 还 有 一 点 值得 注意 的 
是 ,初始 中 心 点 位 置 也 可 能 会 影响 最 终 的 聚 类 。 例 如 上 图 中 k=7 的 例子 ， 初 始 值 选取 

的 右边 三 个 中 心 点 比较 靠近 ， 最 后 得 到 的 右边 三 个 聚 类 中 心 点 位 置 也 跟 初 始 位 置 比较 
相近 。 所 以 ，k 值 大 小 和 初始 中 心 点 位 置 都 会 影响 聚 类 效果 。 


接 下 来 ， 我 们 把 k-Means 应 用 到 RBF Network 中 ， 同 样 分 别 设 定 k 为 2，4，7， 不 同 模 
型 得 到 的 分 类 效果 如 下 : 





很 明显 ，k=2 时 ， 分 类 效果 不 是 太 好 ; k=4 时 ， 分 类 效果 好 一 些 ; 而 k=7 时 ， 分 类 效果 
更 好 ， 能 够 更 细致 地 将 样本 准确 分 类 。 这 说 明了 k-Means 中 k 值 设置 得 是 否 合理 ， 对 
RBF Network 的 分 类 效果 起 到 重要 的 作用 。 


再 来 看 一 个 例子 ， 如 果 使 用 full RBF Network 进 行 分 类 ， 即 k=N， 如 下 图 左边 所 示 ， 设 
置 正 则 化 因子 入 二 0.001。 下 图 右边 表示 只 考虑 full RBF Network 中 的 nearest 
neighbor。 下 图 中 间 表 示 的 是 k=4 的 RBF Network 的 分 类 效果 。 





从 上 图 的 比较 中 ， 我 们 可 以 发 现 full RBF Network 得 到 的 分 类 线 比较 弯曲 复杂 。 由 于 
full RBF Network 的 计算 量 比较 大 ， 所 以 一 般 情 况 下 ， 实 际 应 用 得 不 太 多 。 
[个 


= 


本 节 课 主要 介绍 了 Radial Basis Function Network。RBF Network Hypothesis 就 是 计 
算 样本 之 间 distance similarity 的 Gaussian 函 数 ， 这 类 原型 奉 代 了 神经 网 络 中 的 神经 
元 。RBF Network 的 训练 学 习 过 程 ， 其 实 就 是 对 所 有 的 原型 Hypotheses 进 行 inear 
aggregation。 然 后 ， 我 们 介绍 了 一 个 确定 k 个 中 心 点 的 unsupervised learning 算 法 ， 
叫做 k-Means Algorithm。 这 是 一 种 典型 的 聚 类 算法 ， 实 现 对 原始 样本 数据 的 聚 类 分 
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到 更 好 的 分 类 模型 。 最 后 ， 我 们 列举 了 几 个 在 实际 中 使 用 k-Means 和 RBF Network 的 
例子 ， 结 果 显 示 不 同 的 类 群 k 值 对 分 类 的 效果 影响 很 大 。 


注 明 : 
文章 中 所 有 的 图 片 均 来 自 台湾 大 学 林 轩 田 《机 器 学 习 技 法 》 课 程 


